BIOSTATISTIQUE II : 
2ème partie : STATISTIQUE INDUCTIVE 


CHAPITRE 1 
ECHANTILLONNAGE ET ESTIMATION 


I. GENERALITES ET DEFINITIONS 

On considère une population sur laquelle on dispose d'informations concernant un 
paramètre relatif à un certain caractère. L'échantillonnage consiste à passer de la 
population totale à un échantillon provenant de cette population, c'est à dire à déduire, à 
partir des informations sur la population, des informations concernant le paramètre sur 
l'échantillon. 

On considère, cette fois, un échantillon sur lequel on dispose d'informations concernant 
un paramètre relatif à un certain caractère. L'estimation consiste à passer de l'échantillon 
à la population, c'est à dire à induire, à partir des résultats observés sur l'échantillon, des 
résultats concernant la population. 
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Dans ce qui suit, on traite le problème d'échantillonnage avant de passer à la notion 
d'estimation. 


II. DISTRIBUTION  D'ECHANTILLONNAGE ET INTERVALLE DE 
CONFIANCE D'UNE MOYENNE 


A. CAS DES GRANDS ECHANTILLONS (n > 30) 


1. Distribution d'échantillonnage d'une moyenne 

On considère une population nombreuse de moyenne M et d'écart-type o, relatif à un 
caractère quantitatif. Si on prélève au hasard k échantillons de même taille n par 
exemple, on constate que les moyennes m,,m,,…,m, de ces k échantillons font 
apparaître des différences, parfois importantes, dues aux fluctuations 
d'échantillonnage. On désigne par X, la variable aléatoire qui peut prendre pour valeur 
la moyenne d'un échantillon prélevé au hasard de la population. X est appelée moyenne 
d'échantillonnage. 

On détermine la loi de probabilités de X appelée distribution d'échantillonnage de la 
moyenne 


D'après le théorème central limite, on démontre que : 
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L'intervalle : 





est appelé intervalle de pari de la moyenne noté par 1P(X) ou encore intervalle de 
fluctuation de la moyenne. C'est l'intervalle qui contient X au risque d'erreur «. 


1 — a est appelé seuil de confiance. 

a est appelé risque d'erreur. 

t, est une valeur donnée par la table de la loi normale centrée réduite. 

En général, on choisit æ = 5% et dans certains cas assez particuliers æ = 1%. 
D'après les propriétés de la loi normale on a : 


a = 5% , ta = 1,96 
a=1% , ta = 2,6 


Exemple 
Une machine est destinée à fabriquer des comprimés de poids moyen de 200 mg avec un 
écart-type de 10 mg. On extrait au hasard un échantillon de 50 comprimés. Entre quelles 
limites varie le poids moyen des comprimés de cet échantillon au risque de 5% ? 
Solution 
Population : M = 200 et o, = 10 
Echantillon : n = 50 > 30 
Le poids moyen d'un échantillon varie d'un échantillon à un autre, c'est donc une v.a. que 
l'on désigne par X (la moyenne d'échantillonnage). 
Comme n > 30 alors 
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L'intervalle de pari de X est donc : 


IP(®) = |m -t Se. M+t Te 
n° “An 
au risque « donné. 
A.N. : Pour a = 5%, t, = 1,96 
IP(X) = [197,22 , 202,77] au risque « = 5% 


Le poids moyen d'un échantillon de 50 comprimés est compris entre 197,22 et 202,77 
avec un risque de 5% de se tromper. 


2. Intervalle de confiance d’une moyenne 
Soit à étudier dans une population un certain caractère quantitatif. Désignons par M la 
moyenne et o, l'écart-type du caractère étudié (M et ø, sont inconnus). On prélève au 
hasard un échantillon de taille n et on en détermine la moyenne m et l'écrat-type s,. Le 
problème qui se pose est d'estimer la moyenne M de la population à partir de n, m et o., 
c'est à dire de trouver un intervalle dans lequel se trouve la moyenne de la population M. 


L'intervalle : 


IC(M)=Îm-t 


Oe Oe 
“n= pe = 1 
est appelé intervalle de confiance de la moyenne noté par IC(M). C'est l'intervalle qui 
contient la moyenne M de la population au risque d'erreur æ. On choisit généralement æ = 5% ou 
a = 1%. 
Pour a=5% , ta = 1,96 
Pour æ = 1% , ta = 2,6 
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Remarque : 


æ étant inconnu et on démontre que, lorsque n >30, la variance de la 


population 2 est estimée par o. En d'autre terme, lorsque n > 30 on a : 


n 
2 2 
o2 x o 
P n-1 ° 


Donc s? est la variance estimée de la population et on a : 


n 
1 
s? = — Gi = m)? 
i=1 





à 


Gp 

Exemple 

Dans une population de personnes, on extrait au hasard un échantillon de taille 40 dont 

le poids moyen est de 70 Kg et l’écart-type de 15,4 Kg. Quel est, au risque de 5%, 

l'intervalle de confiance du poids moyen de la population ? 

Solution 

Echantillon : n = 40 > 30 m=70 et c= 15,4 

Désignons par M le poids moyen de la population à estimer. 

L'intervalle de confiance de M est donc : 
IC(M) = [m = ty 2 


yn-—1 


Oe 
— „M+ ta 
au risque æ donné. 
A.N. : Pour a = 5% , ta = 1,96 
IC(M) = [65,16 , 74,83] au risque a = 5% 
Ceci veut dire qu'il y a 95% de chances pour que l'intervalle de confiance [65,16 , 74,83] 
contienne le poids moyen M de la population. 


3. Précision de l'estimation 
Il convient de remarquer que la précision de l'estimation est d'autant meilleure que la 
taille de l'échantillon est assez grande car la longueur de l'intervalle de confiance diminue 
quand n croît. 
On a: 


M=mtta 





La précision de l'estimation est donc : 





pour un risque a donné. 


Dans l'exemple précédent, La précision de l'estimation du poids moyen de la population 


est : 


15,4 


h = 1,96 = 4,83 
9 





D'autre part, si on diminue le risque « (donc t, augmente), la longueur de l'intervalle de 
confiance augmente, par conséquent on perd la précision de l'estimation. 


4. Détermination du nombre d'individus nécessaire 
Revenons à notre exemple précédent. 
Supposons qu'on veuille estimer le poids moyen de la population à 2Kg près. Quel 
devrait être le nombre minimum d'individus nécessaire pour atteindre cette précision au 
risque a = 5% ? 


En d'autres termes, on détermine n’ tel que h = 2. 


On a donc : 





t a 
"= +1 
i ( 2 
Au risque a =5% , ty=1,96 et 0, =154 => n'= 228,76 = 229 


La taille minimale de l'échantillon devrait être égale à 229 pour atteindre la précision 
désirée (2 Kg). 
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Plus généralement, pour un risque « et une précision désirée h on a : 


t,.0,\? 
n=(< <) + 1 


h 


Lors de l'estimation de la moyenne M de la population, il est possible de déterminer le 
nombre minimum d'individus nécessaire à condition : 

1. de fixer à l'avance une précision h et un risque x, 

2. de connaître l'écart-type d'un échantillon préalablement étudié (o,). 


B. CAS DES PETITS ECHANTILLONS (n < 30) 


1. Distribution d'échantillonnage d'une moyenne 
Lorsque n < 30, la moyenne d'échantillonnage X ne suit pas en général une loi normale 
sauf si le caractère étudié dans la population suit une loi normale. Dans ce qui suivra, on 
suppose que l'hypothèse de normalité du caractère étudié est vérifiée (d’ailleurs, cette 
hypothèse est très souvent réalisée en médecine et en biologie). 
Comme dans le cas des grands échantillons on a : 








X o2 _ 
>N M,- , E(X)=M 


L'intervalle de pari de la moyenne noté par IP(X) ou encore intervalle de fluctuation 
de la moyenne est : 


IP(X) = [m t, BP M4t e] 
“Jn “yn 
En général, on choisit æ = 5% et dans certains cas assez particuliers æ = 1%. 
Pour æ = 5% , ta = 1,96 
Poura=1% , ta =2,6 





2. Intervalle de confiance d'une moyenne 
Le problème d'estimation est analogue à celui posé précédemment. On connaît n, m et oe. 


L'intervalle de confiance de la moyenne noté par IC(M) est : 


Oe Oe 
, 


IC(M) = |m- t m +t 





Nes id 


où t} est la valeur donnée par la table de STUDENT-FI SHER en fonction du risque a=5% 
ou a=1% et le nombre de degré de liberté v = n — 1. 


Condition d'utilisation : Cette formule nécessite la condition de normalité du caractère. 


Exemple 
Un dosage de sucre dans une solution effectué sur 8 prélèvements provenant d’une 
même population a donné les résultats suivants exprimés en g/l. 

19,5 19,7 19,8 20,2 20,2 20,3 20,4 20,8 
1- Calculer la moyenne et l'écart-type de cette distribution. 
2- Quel est l'intervalle de confiance de la moyenne au risque de 5% ? 
Solution 
1- Calcul de la moyenne et de l'écart-type 
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1 
m = > x; = 20,11 
i=1 


8 

1 

> Gi — m}? = 0,395 
i=1 


2- Désignons par M le dosage moyen du sucre de la population à estimer. En supposant 
que le dosage du sucre est distribué dans la population selon une loi normale, 
l'intervalle de confiance de la moyenne M est donc : 


Oe Oe 
IC(M = [n-e ‚m + tă —— 
(M) 7 E 








au risque «. 
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A.N. : Au risque a =5% avec v =8 — 1=7 la table de STUDENT-FISHER nous 
donne tå = 2,365. 
I.C(M) = [19,75 ,20,46] au risque « = 5% 


III. DISTRIBUTION  D'ECHANTILLONNAGE ET INTERVALLE DE 
CONFIANCE D'UNE PROPORTION 
1. Distribution d'échantillonnage d'une proportion 
Soit p la proportion d'individus porteurs d'un caractère dans une population nombreuse. 
On extrait au hasard un échantillon. Soit la v.a. Y, la proportion d'individus qui portent 
le caractère. Y est appelée proportion d'échantillonnage. 


On détermine la loi de probabilité de Y appelée distribution d'échantillonnage de la 
proportion. 


Lorsque n.p > 5, on démontre que : 


Y >N (p) , EY)=p , VY) = 


p.q 


EE, a E 
à q p 





L'intervalle de pari de la proportion noté par IP(Y) ou encore intervalle de fluctuation 
de la proportion est : 





En général, on choisit æ = 5% et dans certains cas assez particuliers æ = 1%. 
Pour a = 5% , ta = 1,96 
Pour «= 1% , ta = 2,6 


Exemple 

Chez une race de souris on a trouvé que la présence de cancers spontanés est de 25%. 
Dans quel intervalle, au risque de 5%, est situé le pourcentage de cancers pour un 
échantillon de 100 souris ? 

Solution 

Population : p = 0,25 

Echantillon : n = 100 

Le pourcentage de cancers varie d'un échantillon à un autre, c'est donc une v.a. que l'on 
désigne par Y (la proportion d'échantillonnage). 

L'intervalle de pari de Y, correspondant au risque œ donné, est donc : 


IP(Y) = p = ALT + AE 


La condition de validité est remplie : n.p = 100.0,25 = 25 > 5. 
A.N. : Pour a = 5%, ty = 1,96 
IP(Y) = [0,16,0,33] au risque «a = 5% 


La proportion de cancers pour un échantillon de 100 souris est située dans l'intervalle 
[0,16, 0,33] au risque de 5%. 
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